Open-Domain Question Answering (ODQA) requires models to answer factoid questions with no context given. The common way for this task is to train models on a large-scale annotated dataset to retrieve related documents and generate answers based on these documents. In this paper, we show that the ODQA architecture can be dramatically simplified by treating Large Language Models (LLMs) as a knowledge corpus and propose a Self-Prompting framework for LLMs to perform ODQA so as to eliminate the need for training data and external knowledge corpus. Concretely, we firstly generate multiple pseudo QA pairs with background passages and one-sentence explanations for these QAs by prompting LLMs step by step and then leverage the generated QA pairs for in-context learning. Experimental results show our method surpasses previous state-of-the-art methods by +8.8 EM averagely on three widely-used ODQA datasets, and even achieves comparable performance with several retrieval-augmented fine-tuned models.
translated by 谷歌翻译
Discriminative pre-trained language models (PLMs) learn to predict original texts from intentionally corrupted ones. Taking the former text as positive and the latter as negative samples, the PLM can be trained effectively for contextualized representation. However, the training of such a type of PLMs highly relies on the quality of the automatically constructed samples. Existing PLMs simply treat all corrupted texts as equal negative without any examination, which actually lets the resulting model inevitably suffer from the false negative issue where training is carried out on pseudo-negative data and leads to less efficiency and less robustness in the resulting PLMs. In this work, on the basis of defining the false negative issue in discriminative PLMs that has been ignored for a long time, we design enhanced pre-training methods to counteract false negative predictions and encourage pre-training language models on true negatives by correcting the harmful gradient updates subject to false negative predictions. Experimental results on GLUE and SQuAD benchmarks show that our counter-false-negative pre-training methods indeed bring about better performance together with stronger robustness.
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
基于预先训练的语言模型(PRLMS)在源代码理解任务中取得的巨大成功,当前的文献研究要么进一步改善PRLM的性能(概括)或对对抗性攻击的鲁棒性。但是,他们必须在这两个方面之间的权衡方面妥协,而且它们都没有考虑以有效和实用的方式改善双方。为了填补这一空白,我们建议使用语义保护对抗代码嵌入(空间),以找到最坏的传播语义保留攻击,同时迫使模型在这些最坏情况下预测正确的标签。实验和分析表明,在提高PRLMS代码的性能的同时,空间可以保持强大的防御性攻击。
translated by 谷歌翻译
常识性推理是自然语言处理(NLP)的一个吸引人的话题,因为它在支持NLP系统的类似人类行为方面起着基本作用。以大规模的语言模型作为骨干,无监督的预培训在众多CORPORA上显示出捕获常识性知识的潜力。当前基于预训练的语言模型(PLM)推理遵循传统实践使用困惑度量。但是,常识性推理不仅仅是现有的概率评估,后者偏向单词频率。本文重新考虑了常识性推理的性质,并提出了一种新颖的常识性推理指标,非替代信心(NRC)。详细介绍,它根据Electra中替换的令牌检测(RTD)预训练目标的替换代币检测(RTD)的作用,在该目标中,腐败检测目标反映了对上下文完整性的信心,而与现有概率相比,与常识性推理更相关。我们提出的新方法可以提高两个常识性推理基准数据集上的零射击性能,并在另外七个共识性提问数据集上提高了零射击性能。我们的分析表明,预先认识的常识性知识,尤其是对于基于RTD的PLM,对于下游推理至关重要。
translated by 谷歌翻译
蒙版语言建模(MLM)已被广泛用作培训前语言模型(PRLMS)中的剥夺目标。现有的PRLMS通常采用随机掩盖策略,在该策略中应用固定的掩蔽率,并且在整个培训中都有均等的概率掩盖了不同的内容。但是,该模型可能会受到训练前状态的复杂影响,随着训练时间的发展,这种影响会发生相应的变化。在本文中,我们表明这种时间不变的MLM设置对掩盖比和掩盖内容不太可能提供最佳结果,这激发了我们探索时间变化的MLM设置的影响。我们提出了两种计划的掩蔽方法,可在不同的训练阶段适应掩盖比和内容,从而提高了训练前效率和在下游任务上验证的效率。我们的工作是一项关于比率和内容的时间变化掩盖策略的先驱研究,并更好地了解掩盖比率和掩盖内容如何影响MLM的MLM预训练。
translated by 谷歌翻译
最终的语言系统旨在在适应各种情况时具有高度的概括和鲁棒性。不幸的是,最近的怀特希望预训练的语言模型(PRLMS)几乎没有从堆叠过多的参数逃脱到过度参数化的变压器体系结构,以实现更高的性能。因此,本文提出了\ textIt {对抗自我注意力}机制(ASA),该机制在对抗性上重建了变压器的注意力,并促进了从受污染的模型结构中进行模型培训,并结合了快速,简单的实现,以实现更好的PRLM构建。我们在预训练和微调阶段进行各种任务进行全面评估。对于预训练,与常规培训相比,ASA会展现出显着的性能增长。为了进行微调,考虑到概括和鲁棒性,ASA授权模型始终超过了天真的模型。
translated by 谷歌翻译
眼底摄影是诊断和监测眼部疾病的诊所的常规检查。但是,对于白内障患者,底眼图像始终会遭受由云晶状体引起的质量降解。降解阻止了眼科医生或计算机辅助系统可靠的诊断。为了提高临床诊断的确定性,已经提出了恢复算法来提高眼底图像的质量。不幸的是,这些算法的部署仍然存在挑战,例如收集足够的培训数据和保存视网膜结构。在本文中,为了规避严格的部署要求,从共享相同结构的合成数据中开发出了针对白内障底底图像的结构一致的恢复网络(SCR-NET)。白内障仿真模型首先是设计用于收集由白内障底面图像共享相同结构的合成性白内障集(SC)的。然后从SCS中提取高频组件(HFC)以约束结构一致性,从而强制执行SCR-NET中的结构保留。该实验证明了SCR-NET与最新方法和后续临床应用的比较中的有效性。该代码可从https://github.com/liamheng/arcnet-medical-image-enhancement获得。
translated by 谷歌翻译
我们在本报告中报告了DeBertav3在CommonSenseQA上的性能。我们只是将答案选择正式为Debertav3的文本分类。DeBertav3的强大自然语言推理能力有助于其单一和合奏模型为CommonSenseQA设定了新的(不包括外部知识)。
translated by 谷歌翻译
隐私保护是联合学习中的一个重要和有关的主题,特别是对于自然语言处理。在客户端设备中,用户每天由用户产生大量包含个人信息的文本。由于来自用户信息的直接应用可能会引起个人隐私,因此在联合学习中提出了许多方法来阻止来自客户端设备中的原始信息的中心模型。在本文中,我们尝试通过在保留语义时扭曲文本来更新语言。在实践中,我们利用最近提出的公制,邻近分布分配,以评估失真期间的语义保存。基于度量标准,我们提出了两个用于语义保存的失真,生成的一个和替代的框架。由于目前的自然语言处理领域中缺乏隐私相关任务,我们对命名实体识别和选区解析进行实验。我们的实验结果表明了我们扭曲的合理性和效率,作为个人隐私保护的方法。
translated by 谷歌翻译